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个 体 视 角 下 的 网 络 导 情 传 递 链 路 预测 分 析 - 
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摘要 : [ 目的 】 通 过 网 络 与 情 传 播 中 网 民 个 体 的 “从 众 效应 "和 “ 国 值 效 应 ”的 传递 特点 分 析 , 对 与 情 传递 的 链 路 结 
构 进行 预测 。[ 方法 ] 采集 真实 网 络 熏 情 传递 在 线 数据 ,利用 熏 情 传递 个 体 的 节点 属性 及 奥 情 传递 网 络 结构 的 已 


知 信 息 , 使 用 链 路 预测 方法 , 分 别针 对 网 络 与 情 无 标 度 (BA) 网 络 模 拟 数据 和 真实 与 情 传递 网 络 数据 ， 预 测 已 有 
节点 间 即 将 产生 的 与 情 传递 连接 。[ 结果 ] 通 过 网 络 数据 仿真 和 BBS 真实 数据 链 路 预测 分 析 发 现 , 在 众多 的 链 路 
预测 相似 性 指标 中 , 局 部 路 径 指标 (LP) 算 法 得 出 的 链 路 预测 结论 正确 率 最 高 , 说 明 LP 算法 适合 此 类 与 情 传递 网 
络 的 链 路 预测 分 析 。[ 局 限 ] 仅 限 于 对 已 有 链 路 预测 相似 性 指标 的 应 用 , 没有 对 传统 链 路 预测 相似 性 指标 进行 相 
应 的 改进 。[ 结论 】 从 数据 角度 提供 一 个 有 效 的 预测 熏 情 发 展 趋势 的 分 析 方 法 ， 以 期 为 网 络 和 与 情 控 制 提供 相关 理 


论 支持 。 
关键 词 : 链 路 预测 
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中 国 拥有 世界 上 最 多 的 网 民 和 最 大 的 访问 量 ， 有 
效 分 析 网 络 与 情 , 对 于 政府 可 以 更 好 地 解读 公众 意见 ， 
对 于 媒体 可 以 突破 传统 的 单 向 信息 生产 模式 , 实现 信 
息 增 值 。 因 此 , 政府 、 媒 体 、 社 会 公众 都 越 来 越 重 视 
网 络 与 情 分 析 ， 充分 发 挥 与 情 信 息 价值 .然而 , 要 充分 
分 析 网 络 与 情 , 仅仅 依靠 传统 的 与 情 分 析 方法 “被 动 
接受 网 络 奥 情 数据 ”是 远 远 不 够 的 由 于 网 络 在 线 数据 
采集 、 清 洗 的 澡 后 性 ,在线 数 据 的 分 析 通 常 不 能 充分 
反映 瞬息 万 变 的 与 情 发 展 状况 。 

网 络 与 情 的 监控 主要 是 指 发 现 对 网 络 与 情 出 现 、 
发 展 和 消亡 具有 重要 影响 的 因素 , 并 连续 不 间断 地 进 
行动 态 监 测度 量 、 采 集 信息 , 根据 预警 体系 的 内 容 运 
用 综合 分 析 技术 对 当前 网 络 与 情 做 出 评价 分 析 ,， 进而 
及 时 地 做 出 等 级 预报 活动 个 ,如 兰 月 新 等 站 构建 三 个 网 


络 与 情 维度 的 舆情 危机 评估 指标 体系 ,使 得 舆情 预警 
研究 由 趋势 性 预警 转变 为 防御 性 预警 。 其 他 比较 常用 
的 网 络 与 情 分 析 方 法 主要 有 : 网 络 调查 法 、 基 于 统 
计 规 则 的 模式 识别 方法 和 基于 内 容 挖掘 的 主题 监测 
方法 。 

HER, 现 有 文献 的 研究 内 容 已 经 开始 涉及 “防御 
性 预警 ” 但 是 研究 的 基础 仍然 是 “过 去 的 与 情 数据 ” 
即使 采用 “正在 发 生 的 与 情 数据 ” 只 是 对 与 情 现 有 状 
况 的 一 个 评估 ， 其 分 析 结 果 仍然 摆脱 不 了 沛 后 性 。 在 
当今 的 数据 环境 下 ,与 情 演变 瞬时 爆发 ， 既然 不 能 推 
演出 舆情 “即时 分 析 结 果 ”， 那么 是 不 是 可 以 尝试 “ 领 
先 一 步 , 预测 需求 因此 , 本 研究 尝试 针对 已 有 的 与 
情 数 据 预 测 将 来 的 与 情 走 向 。 

常见 的 网 络 行为 预测 模型 中 , 线性 模型 包括 : 泊 
松 模 型 息 、 马 尔 科 夫 模型 站 、 自 回归 模型 ARS, EI 


通讯 作者 : SR, ORCID: 0000-0002-0730-4547, E-mail: mirror820909@163.com。 
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XIANDAI TUSHU QINGBAO JISHU 


| 


d 
1 


d 


8! Wh 


C AV, 
Sd V 


z JJ 


L 


归 平均 模型 ARMAM 和 时 间 序 列 预测 模型 中 等 , 这些 
预测 模型 算法 相对 简单 ,数据 拟 合 比较 方便 , 但 是 对 
于 非 线性 、 长 相关 、 自 相似 的 与 情 传 递 个 体 数 据 ,不 
能 完全 适用 ; 非 线 性 预测 模型 中 最 典型 的 神经 网 络 模 
型 外 ,具有 良好 的 自学 习 、 自 适应 及 泛 化 能 力 的 优点 ， 
日 是 神经 网 络 模 型 比较 适用 于 指数 增长 的 预测 ,对 具 
备 明显 的 无 标 度 及 择优 增长 特性 的 互联 网 与 情 传 递 数 
据 , 预测 效果 不 够 理想 。 

本 研究 选择 采用 复杂 网 络 理 论 中 的 链 路 预测 分 析 
方法 ,进行 奥 情 传递 预测 , 具体 原因 如 下 : 

(1) 复杂 网 络 理论 可 以 准确 描述 互联 网 与 情 非 线 
性 、 长 相关 以 及 自 相 似 的 传递 状态 ; 

(2) 链 路 预测 算法 对 与 情 传 递 过 程 中 的 无 标 度 、 
择优 增长 特性 更 加 关注 , 算法 突出 了 奥 情 传递 过 程 中 
主要 的 网 络 增长 特点 及 传播 特性 ; 

(3) 本 研究 的 目的 要 求 和 输出 与 情 传递 的 走势 ， 链 
路 预测 算法 与 此 相 吻 合 , 更 加 直接 地 反映 出 舆情 传递 
下 一 时 段 传递 链接 的 增长 情况 以 及 未 来 链接 产生 的 可 
能 性 。 和 希望 通过 链 路 预测 算法 探测 与 情 传递 网 络 结构 
的 演化 , 实现 预测 与 情 传递 的 目的 ， 以 期 为 网 络 奥 情 
的 监控 和 治理 提供 数据 支持 。 


2 ”与 情 传递 个 体 的 信息 传递 关系 解析 


2.1 与 情 传递 的 “从 众 效应 ” 

从 实质 上 来 讲 , 奥 情 传递 过 程 可 以 看 作 个 人 意见 
的 表达 。 而 个 人 意见 的 表达 是 一 个 社会 心理 表达 过 程 ， 
其 发 生 的 根本 原因 是 为 了 防止 个 体 因 孤 立 而 受到 社会 
惩罚 。 个 人 在 表明 自己 观点 之 际 , 首先 会 对 周围 环境 
中 存在 的 意见 进行 观察 和 检测 。 当 个 体 发 现 自己 属于 
“多 数 意见 ?或 者 “优势 意见 ? 持 有 者 时 ， 他 们 便 拥 有 了 
“安全 感 ” 同时 倾向 于 积极 地 表明 自己 的 观点 。 相 反 ， 
当 个 体 发 现 自己 属于 “少数 意见 ?或 者 "意见 劣势 "状态 
时 , 个 体 便 会 届 服 于 “环境 压力 ” 选择 沉默 状态 ,或 
者 放弃 表达 自己 意见 的 权利 呈 。 

学 者 们 通常 把 与 情 传递 过 程 中 存在 的 类 似 现象 称 
为 “从 众 效 应 WM。 个 体 倾向 于 与 群体 内 其 他 成 员 建 立 
和 维持 一 致 性 , 刘 锦 德 中 认为 ， 网络 奥 情 传播 过 程 是 
以 大 部 分 人 对 事实 不 了 解 为 前 提 的 ， 因 此 从 众 行为 是 
网 络 与 情 得 以 扩散 的 一 个 重要 原因 。“ 从 众 效 应 ”的 产 
生 并 不 是 仅仅 由 个 体 对 与 情 信 息 的 有 效 性 和 有 利 性 做 
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出 判断 ， 而 是 来 自 于 个 体 因 未 获得 信息 而 丢失 个 体 优 
SM, 本文 将 这 种 “ 慌 做 ? 称 之 为 “从众 压力 ”如果 
与 情 传递 个 体 认 为 吸收 与 情 信息 会 产生 个 体 损 失 , 或 
者 认为 吸收 与 情 信 息 的 个 体 收益 不 够 高 而 放弃 与 情 信 
息 ， 此 时 “从 众 压 力 ” 便 会 产生 ,如 图 1 所 示 : 
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图 1 “从 众 压力 ”产生 图 示 


最 初 认 为 僵 情 信息 无 效 的 个 体 , 会 在 “从 众 压 力 ” 
的 作用 下 ,选择 接受 与 情 信息 。 这 些 届 服 于 “从 众 压 
力 ” 的 个 体 行为 导致 吸收 与 情 信息 的 个 体 数量 增多 ， 
从 而 强化 了 “从 众 压力 ”。 最 终 ,“ 从 众 行为 "引发 了 一 个 
循环 驱动 : 与 情 信息 接收 个 体 数 量 的 增多 引发 了 “从 
REH”, “从众 压力 ” 反 过 来 导致 与 情 信息 接收 者 的 增 
多 。 这 种 循环 驱动 在 没有 外 力 的 情况 下 会 一 直 持 续 ， 
直到 认为 与 情 信息 无 效 的 所 有 个 体 屈 服 于 “从 众 压 
力 ”， 而 最 终 接受 与 情 信 息 。 或 者 ,另外 一 种 情况 ,“ 从 
众 行为 ”的 循环 驱动 止 于 与 情 个 体 对 “从 众 压 力 ” 的 “不 
屈服 ”反应 。 
2.2 ”舆情 传递 的 “ 阀 值 效应 ” 

在 “从 众 行为 ”的 定义 中 , 一 部 分 僵 情 传递 个 体会 
首先 接收 与 情 信息 , 男 一 部 分 鳞 情 传递 个 体 选 择 追 随 
其 后 。“ 从 众 行为 ”促使 组 织 产 生 良 性 的 反馈 回路 , 首 
先 接受 信息 的 个 体 带 来 了 从 众 压力 ”,“ 从 众 压 力 ” 促 
使 更 多 的 鳃 情 个 体 接 受 和 与 情 信息 。 在 这 一 过 程 中 ， 可 
以 看 到 ,为 什么 个 体 对 舆情 信息 的 吸收 有 先 有 后 ? 为 什 
么 不 同 与 情 传递 个 体 存在 不 同 的 婴 情 信息 接受 倾向 ? 

其 根本 原因 来 自 于 与 情 传递 个 体 传播 “净值 的 存 
在 。 和 与 情 是 社会 公众 所 参与 的 群体 意识 活动 ， 与 情 传 
弟 个 体 的 性 格 、 和 与 情 传 递 个 体 间 的 关系 及 熏 情 传递 个 
体 文化 背景 等 因素 存在 差异 ,本文 将 不 同 与 情 传递 个 
体 对 某 一 特定 与 情 信 息 的 接收 程度 定义 为 与 情 信息 接 


收 “ 赣 值 "。 在 熏 情 传递 过 程 中 , 与 情 传递 个 体 的 吸收 
阔 值 被 逐渐 增 大 的 “从 众 压力 "超越 最终 与 情 传递 个 
体 届 服 于 “从 众 压 力 "而 变 成 奥 情 信息 接收 者 ,从 而 导 
致 奥 情 传递 组 织 内 与 情 信息 接收 个 体 的 比例 进一步 增 
大 ,如 图 2 所 示 。 本 文 将 阔 值 的 这 一 作用 过 程 定义 为 
“ 阐 值 效应 ”。 


传递 阔 值 


F(m): 个 体 所 受 的 从 众 压力 
n: BME 
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图 2 与 情 传递 个 体 传播 “ 阅 值 ”的 作用 过 程 


XT BU [Eee s B Ef TH, 可 以 承受 较 高 的 
“从 众 压 力 ”， 只 有 “从 众 压力 ”足够 大 时 , 与 情 传递 个 
体 才 会 届 服 并 接收 与 情 信 息 。 对 于 阔 值 较 低 的 舆情 传 
递 个 体 ,， 所 能 承受 的 “从 众 压力 ” 较 低 , 在 较 低 的 “从 众 
压力 ”下 便 会 接受 与 情 信 息 。 对 于 持 有 “0 PI LEER ERG 
传递 个 体 , 不 能 承受 任何 的 “从 众 压 力 ” 对 舆情 信息 
没有 抵触 倾向 ,可 以 很 轻易 地 接受 任何 与 情 信息 ， 从 
而 反 疝 增 大 与 情 组 织 内 部 的 “从 众 压力 ”。 

如 此 , 循环 往复 , 信息 接收 者 的 比率 增 大 ， 助 长 
了 “从 众 压力 ”的 增 大 ,同时 引发 了 更 多 的 与 情 信 息 接 
收 者 ， 如 图 3 所 示 : 


传递 阔 值 


与 情 信息 接收 个 体 比率 
图 3 传递 阅 值 循环 作用 图 示 


当 熏 情 组 织 内 部 的 “从 众 压力 ”强度 不 足以 达到 与 
情 信息 未 接收 者 的 闵 值 ， 并且 不 能 成 功 引起 与 情 传递 
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个 体 信息 接受 行为 时 ,循环 终止 。“ 阔 值 效应 ?可 以 解 
释 : 为 什么 “从 众 效 应 ”没有 使 所 有 的 与 情 传 递 个 体 均 
变 为 信息 接收 个 体 。 实 际 上 , 存在 另外 一 种 情况 , 在 与 
情 传递 的 任何 阶段 ， 当 所 有 与 情 信息 未 接收 节点 的 传 
递 冰 值 均 超越 “从众 压力 ”“ 从 众 效 应 ”也 会 终止 , 即 所 
有 个 体 均 变 为 舆情 信息 接收 个 体 。 


3 链 路 预测 分 析 


3.1 相关 研究 

链 路 预测 本 质 上 是 通过 已 知 网 络 节点 的 节点 属性 
和 网 络 结构 特征 等 信息 ,估计 两 个 尚未 产生 连接 的 节 
点 之 间 产 生 连 边 的 可 能 性 , 或 者 是 已 经 实际 存在 , 但 
是 目前 仍然 没有 被 发 现 的 连 边 。 

目前 , 链 路 预测 分 析 方 法 被 应 用 到 生物 、 互 联网 、 
社会 网 络 等 各 个 领域 。 比 如 在 生物 领域 预测 蛋白 质 网 
络 结构 中 的 关键 蛋白 , 代替 耗费 大 量 成 本 的 实验 室 操 
JEU 在 社会 网 络 领域 , 通过 挖掘 隐藏 边 信 息 来 挖 据 
恐怖 分 子 ,， 阻止 丽 怖 事件 的 发 生 品 。 另 外 , 很 多 学 者 
致力 于 链 路 预测 方法 本 身 的 改进 。Liben-Nowell 等 
针对 社会 网 络 中 的 合作 网 络 特征 重新 定义 了 符合 社会 
网 络 特征 的 相似 性 指标 。 Murata 等 (还 将 共有 邻居 指 
数 (CN) 拓 展 到 加 权 网 络 中 ，Leskovec 等 69 研究 了 在 线 
社交 网 络 上 的 正 负 关系 的 链 路 预测 。 

与 情 传递 领域 的 链 路 预测 是 将 链 路 预测 分 析 方 法 
应 用 于 社会 网 络 领域 , 通过 已 有 的 与 情 传递 网 络 拓扑 
结构 ,预测 未 来 某 一 时 刻 的 与 情 传递 拓扑 结构 ， 从 而 
得 知 与 情 传 递 的 走向 和 路 径 。 另 外 ， 本 研究 将 各 种 相 
似 性 指标 算法 的 正确 率 进行 比较 , 试图 找 出 适合 特定 
熏 情 传递 网 络 的 相似 性 指标 计算 方法 。 
3.2” 链 路 预测 

暖 情 信息 的 流动 是 表达 与 情 传 递 个 体 间 网 络 结 
构 的 “从 众 效应 ”和 表达 与 情 传 递 个 体 的 主观 情绪 的 
“ 立 值 效应 ”共同 作用 结果 。 因 此 有 学 者 指出 ,与 情 传 
递 个 体 的 行为 规则 不 仅 决定 于 个 人 意志 , 而 且 取 决 
于 奥 情 传递 个 体 所 处 的 位 置 (1。 网 络 结构 能 够 影响 
与 情 传 递 个 体 间 的 从 众 关 系 ， 因 为 在 与 情 传递 个 体 
的 “视线 ”之 外 的 僵 情 接收 者 是 没有 办 法 对 湾 在 僵 情 
传递 个 体 产生 影响 的 。 同 时 , 在 僵 情 接收 者 的 可 影响 
范围 内 ,其 释放 的 “影响 ”无 处 不 渗透 着 与 情 传 递 个 
V 065 BEJE R o 
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另外 , 结构 上 对 等 的 个 体 ( 即 存在 相似 的 与 情 信 
息 传 递 邻 居 ) 面 临 着 相似 的 “从 众 环境 "和 "“ 浆 值 环境 ” 
因此 如 此 相似 的 环境 下 ， 湾 在 舆情 接收 者 也 会 表现 出 
相似 的 舆情 信息 反应 。 那 么 ,能 不 能 通过 已 知 的 与 情 
传递 个 体 间 的 “从 众 效 应 关系 和 与 情 传递 个 体 的 “ 效 
值 效应 ”属性 状态 预测 与 情 传递 个 体 间 的 未 来 与 情 信 
息 传 播 状 态 ? 即 预测 与 情 传递 个 体 间 进 行 与 情 传递 的 
可 能 性 .对 这 一 问题 的 回答 , 是 本 文 的 研究 重点 , 本文 
借用 链 路 预测 的 分 析 方法 。 

链 路 预测 是 复杂 网 络 理论 研究 中 的 一 个 重要 分 
支 , 旨 在 利用 已 知 的 网 络 拓扑 结构 或 者 节点 属性 信息 
预测 网 络 中 节点 对 之 间 缺 失 或 者 可 能 产生 的 链接 ,其 
实质 是 探索 和 预测 网 络 信息 传递 结构 的 演化 。 比 如 对 


广 | 上 ”Vi 人 [人 万 甘 日 工 | 
ChinaXiv C FRHTU 


EL ANN 


BA 无 标 度 网 络 的 构造 算法 可 以 分 为 两 步 : 

(1) 增长 : 从 一 个 具有 my 个 节点 的 网 络 开始 , 每 
次 引入 一 个 新 的 节点 , 并 且 连 接 到 m 个 已 经 存在 的 节 
“E, Rm Zm o 

(2) 优先 连接 : 一 个 新 节点 与 一 个 已 存在 的 节点 
i 相连 接 的 概率 p ,节点 i 的 度 ki 和 节点 度 的 和 Sk; 
之 间 满 足 如 下 关系 : 


k. 
z 1 
E (1) 
jJ 


p= 


2 
4.2 无 标 度 与 情 信息 传递 网 络 模 型 构建 
由 于 “ 阐 值 效应 存在， 奥 情 不 断 扩散 的 同时 会 引 
起 与 情 传递 网 络 不 断 增长 ,与 情 传递 过 程 中 “从 众 效 
应 ”引起 的 优先 连接 的 特性 , 最 重要 的 是 熏 情 传递 网 


于 生物 网 络 中 隐 仿 未知 链接 的 揭示 是 需要 耗费 高 额 实 
验 成 本 的 , 但 是 如 果 可 以 预测 ,而 非 盲 目地 检测 所 有 
链接 ,并 以 此 指导 实验 ,就 可 以 节约 相当 一 部 分 实验 
开销 。 对 于 不 断 演 化 的 与 情 传递 网 络 而 言 ,根据 已 知 
的 与 情 传递 个 体 间 的 传递 和 影响 关系 ,预测 尚 未 连接 
的 与 情 传 递 个 体 间 的 扩散 和 传递 状态 ， 从 而 避免 对 海 


量 信息 的 盲目 筛选 ,实现 对 属 情 传递 的 预期 和 预测 。 
由 此 揭示 与 情 传递 个 体 间 的 传递 和 演化 行为 ,制定 相 
应 的 与 情 治 理 策略 ,改变 了 与 情 治理 只 能 事后 操作 的 
传统 模式 , 转 为 与 情事 前 监督 。 


4 ” 链 路 预测 仿真 


4.1 无 标 度 (BA) 网 络 模型 介绍 

在 复杂 网 络 理论 的 各 种 网 络 模型 中 ， 随 机 网 络 
(ER) 和 小 世界 网 络 (WS) 的 共同 特征 是 网 络 的 度 分 布 
可 近似 表示 为 泊 松 分 布 , 因此 可 以 被 称 为 均匀 网 络 。 
但 是 , 大 量 实证 研究 结果 表明 , 粤 情 传递 所 借助 的 在 
线 社交 网 络 度 分 布 具 有 更 突出 的 寡 率 分 布 特性 一 一 
大 部 分 的 节点 度 比较 小 ,少数 节点 拥有 较 大 的 节点 
pgu8-19]. 

KIE BA 无 标 度 网 络 的 一 个 重要 特征 ，BA 
无 标 度 网 络 的 各 个 节点 之 间 的 连接 具有 严重 的 不 均匀 
分 布 特性 ， 网络 中 只 有 少 部 分 的 节点 拥有 极其 多 的 连 
E, 而 大 多 数 节 点 拥有 少量 连接 。 BA 无 标 度 网 络 的 这 
一 度 分 布 特点 与 在 线 社交 网 络 度 分 布 的 特点 相 吻 合 ， 
因此 其 通常 被 认定 为 模拟 真实 在 线 网 络 结构 的 理想 网 
pea 
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络 具备 无 标 度 网 络 的 索 率 性 特征 请， 因此 选取 无 标 度 
网 络 作为 与 情 传递 链 路 预测 的 仿真 网 络 。 

结合 网 络 与 情 的 传递 特点 ， 基 于 BA 无 标 度 网 
络 模 型 构造 网 络 模 型 算法 人 3 

(1) 始 化 网 络 : 设 网 络 初始 节点 数 为 mo = 20, 为 
每 个 网 络 节点 随机 设置 不 同 的 初始 阔 值 TR。 o HT ER 
情 信息 随 着 时 间 的 推移 ,其 时 效 性 会 存在 一 定 程度 的 
减退 ， 故 设 定 网 络 的 衰减 参数 d=0.2(0 x d<1)。 

(2) 人 新 节点 : 在 网 络 中 加 入 /个 新 节点 , 新 节点 
的 熏 情 传递 闷 值 仍然 随机 产生 ,新 节点 将 与 网 络 中 原 
有 节点 产生 mm € my) 条 连 边 。 在 连接 过 程 中 ,由 于 
从 众 效 应 的 存在 , 原 有 节点 i 的 优先 连接 选取 概率 mn; 
不 仅 与 节点 i 的 传递 阔 值 有 关 ， 而 且 与 网 络 原 有 节点 
度 的 增加 系数 a e (0,1) AX, 取 w = 0.1， 即 : 


„-RO+a 
' TRO 
j 


Q) 


Q) aras s RS PIE: 随 着 与 情 环 境 的 改变 ， 
个 体 的 熏 情 传递 国 值 也 会 发 生变 动 。 


TRO) 1 TR() 
: |-a-a|:|eafs : G) 
TR) 1). PITRO 


其 中 ，Aix 为 网 络 的 链接 矩阵 。 
(4) 复生 点 加 入 , 直至 节点 增加 满足 要 求 m=300。 
“优先 连接 "是 BA 网 络 构建 的 一 个 特性 , 本 研究 
JH BA 网 络 的 优先 连接 特性 表达 舆情 传递 的 “从众 效 
应 ”。 网 络 环 境 中 个 体 “从 众 效 应 ” 越 强 ， 其 选择 建立 连 


接 的 节点 数量 越 多 ,为 了 表达 与 情 传递 过 程 中 “从 众 效 
应 ”的 大 小 , 在 构造 BA 网 络 的 时 候 , 新 加 入 节点 与 网 
络 原 有 节点 建立 连接 时 分 别 选 取 m =12,3,4, 建立 4 
个 不 同 的 BA 网 络 。 在 经 过 BA 网 络 的 “增长 "和 “优先 
连接 ”过程 之 后 , 所 生成 与 情 传递 BA 无 标 度 网 络 的 具 
体 网 络 相 关 统 计 指 标 如 表 1 所 示 : 


网 络 Netl Net2 Net3 Net4 
边 数 450 730 941 1 140 
节点 数 300 300 300 300 
43 ” 链 路 预测 实现 
参考 文献 [23] 中 的 链 路 预测 步骤 , 结合 本 文 的 研 


究 内 容 , 分 别 对 4 BA 网 络 模型 进行 链 路 预测 : 

(1) 按照 随机 抽样 方法 , 以 80% 和 20% 的 比例 ， 
将 网 络 连 边 数据 随机 分 成 训练 集 E! 和 测试 集 E? 两 
部 分 。 

Q) 设 网 络 中 节点 个 数 为 V=300, 已 有 连 边 组 成 
的 集合 为 El 。 则 网 络 中 未 连接 的 节点 连 边 为 
VxV-Equoc 

(3) 根据 不 同 的 相似 性 指标 计算 方法 , 遍历 所 有 
WAX <x, y>, 计算 相似 性 指标 分 数 score(x,y) o +H 
似 性 指标 分 数值 是 所 有 连 边 的 相似 性 指标 分 数值 ， 
但 是 需要 关注 目前 实际 上 不 存在 的 连 边 的 相似 性 指 
标 值 。 

(4) 将 计算 出 的 相似 性 指标 分 数 大 小 进行 排序 ， 
按照 从 大 到 小 的 顺序 填 到 排序 表格 中 ,相似 性 指标 的 
分 数 越 大 , 表明 节点 对 间 出 现 连 边 的 几率 越 大 。 

(5) RIRE E HERAK Epo 网 络 中 实际 
连 边 的 个 数 为 n= En 。 选 取 相似 性 指标 分 数列 表 中 
的 前 n 对 节点 建立 连 边 , 这 些 连 边 为 预测 出 的 存在 可 
能 性 最 大 的 连 边 , 设 为 集合 Eee 。 

(6) 检验 预测 出 连 边 的 正确 性 , 设 检 验 正 确 率 的 
指标 为 P: 


E. NE 


pre pro 


P= x100% (4) 


经 过 程序 测算 , 得 到 不 同 相 似 性 指标 测算 方法 得 
出 的 测算 值 ， 相 关 指 标 解释 如 表 2 所 示 。 其 中 , 对 于 网 
络 中 的 节点 x, 定义 T(x) 是 x 的 邻居 集合 , sy 代表 点 x 
和 y 的 共同 邻居 个 数 ; ku ky 分 别 为 节点 x 和 y 的 度 ; A 
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为 网 络 的 邻接 矩阵 ，o 为 可 调 参数 , I 为 单位 矩阵 ; Katz 
间 标 中 o 需 小 于 邻接 和 矩阵 最 大 特征 值 的 倒数 。 
表 2 链 路 预测 相似 性 指标 


名 称 定义 
共同 邻居 (CN) sxy =IT(X) NT(Y) | 
- Co n ro)l 
Salton 指标 Sy 7 —— r — 
alton JA y Jk, 
区 . |Fe9nrG)I 
pese wy " IFG)UTG/ 


Sorensen 指标 


s -ZIWANI 


u kx +ky 
ET — _IE@NTO)I| 
大 度 节 点 有 利 指标 (HPD Sxy — inf 
全 - . |rG9 fi r(y)I 
大 度 节点 不 利 指标 (HDD Sxy 二 prece kj 


LHN-I 指标 


优先 连接 指标 (PA) 
Katz 指标 


< _ITC Nr) 


xy 


kk, 


Sxy=kxky 


s-(I-axA) -I 
s-A^- aA? 


局 部 路 径 指标 (LP) 


计算 其 对 应 的 正确 率 检验 指标 PB 结果 如 表 3 所 示 : 
表 3 预测 正确 率 (%) 


指标 Netl Net2 Net3 Net4 
CN 18.45 10.61 10.31 7.52 
Salton 0.06 1.06 4.23 6.40 
Jaccard 0.06 1.12 4.30 6.43 
Sorensen 0.06 1.12 4.30 6.43 
HPI 0.04 0.05 0.32 0.20 
HDI 0.02 0.04 0.26 0.23 
LHN-I 0.01 0.02 0.27 0.41 
PA 20.70 14.81 11.62 10.52 
Katz 14.32 11.31 9.72 9.35 
LP 21.60 12.61 10.47 9.65 


链 路 预测 结果 表明 , 针对 本 次 仿真 实验 的 BA 网 

路 数据 , PA 相似 性 指标 的 预测 结果 较为 准确 .这 与 BA 

网 络 的 特征 有 密切 关系 , BA 网 络 的 构建 是 通过 引入 节 

点 、 优 先 连接 的 步骤 实现 的 。PA 相似 性 指标 的 计算 思 

路 也 是 侧重 于 优先 连接 的 考虑 ,因此 针对 BA 网 络 模 
型 数据 , PA 相似 性 指标 的 预测 结果 较为 准确 。 

另外 , LP 相似 性 指标 的 预测 结果 相 比 其 他 相似 性 

旨 标 的 预测 方法 ， 也 呈现 出 比较 好 的 准确 性 。 这 是 因 

为 LP 是 局 部 路 径 相 似 性 指标 , 而 BA 网 络 的 典型 特征 
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Chinaxiv 全 作 其 于 | 


CANA IV a TFT 
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是 度 分 布 具备 震 率 分 布 特性 ， 局 部 群体 特征 相对 其 他 
类 型 网 络 更 为 明显 。 因此 , 针对 本 研究 的 实验 数据 , LP 
相似 性 指标 预测 方法 也 比较 适用 。 


5 恤 情 传递 个 体 信 息 传 递 的 链 路 预测 验证 


51 ”舆情 传递 个 体 数据 采集 描述 
除了 Blog, Wiki 等 形式 以 外 , BBS Z& j£ Ee ffe 
递 系统 的 重要 组 成 部 分 之 一 。 随 着 Web 页 面 的 使 用 普 
KR, BBS 逐渐 拥有 了 庞大 的 用 户 群 ， 同 时 满足 网 络 僵 
论 的 产生 及 传递 有 效 性 的 要 求 。 
本 文 所 使 用 gen IM UE 于 江苏 省 南京 市 
某 企业 在 线 员工 论坛 ", 该 BBS 论坛 有 300 多 个 用 户 ， 
工作 2 s 讨论 版 面 齐 全 ， 为 本 文 
的 研究 提供 了 良好 的 原始 数据 源 。BBS 数据 集 在 非 
a 情况 下 通过 网 络 候 虫 程序 获得 , 不 需要 用 户 
L 合 ,数据 真实 可 靠 。 所 获取 的 原始 数据 由 2014 年 7 
: 到 2015 Æ 6 月 共计 约 134 369 条 的 BBS 发 帖 和 回 
帖 记 录 组 成 。 利 用 数据 库 技 术 和 数据 挖掘 技术 挖掘 有 
关 信 息 ， 对 所 采集 的 数据 建立 BBS 在 线 网 络 。 该 BBS 
在 线 网 络 是 以 发 帖 或 回帖 个 体 为 节点 、 回 帖 为 边 的 网 
络 。 一 个 帖子 的 发 帖 人 和 回帖 人 ,可 能 同时 与 男 一 个 
帖子 或 者 其 他 几 个 帖子 的 发 帖 人 和 回帖 人 产生 交叉 ， 
因此 不 同 帖子 的 发 帖 人 和 回帖 人 共同 组 成 了 网 络 系 
统 ， 整 个 网 络 的 度 分 布 如 图 4 所 示 。 网络 的 度 分 布 具 
备 明显 的 长 尾 现象 ,因此 具备 无 标 度 网 络 的 帘 率 分 
布 特性 。 


10 100 1000 


图 4 和 与 情 传递 网 络 度 分 布 


由 于 构建 出 的 BBS 网 络 系统 节点 及 连 边 规模 比 
较 大 ,经 过 初步 数据 清洗 之 后 , 选择 论坛 的 两 个 板块 
作为 分 析 的 主体 。 两 个 板块 命名 为 "advice-4” 和 


CDhttp://168.8.4.1 8/bbs/index.php. 
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其 网 络 基 本 统计 指标 如 表 4 所 示 : 
表 4 advice-4 和 advice-5 的 网 络 基 本 属性 特征 值 


*advice-5", 


统计 指数 advice-4 advice-5 
d 33 18 
连接 数 103 65 
密度 0.0985 0.2157 
互惠 性 1 1 
传递 性 0.1615 0.3542 
聚集 系数 0.303 0.505 
平均 距离 2.746 2.190 
网 络 直径 6 4 
连通 性 1 1 
网 络 效率 0.9597 0.8824 


5.2 ”现实 熏 情 传递 网 络 的 链 路 预测 

针对 选 定 的 论坛 版 块 advice-4 和 advice-5 进行 链 
路 预测 分 析 : 

(1) 针对 清洗 后 的 数据 , 划分 训练 集 和 测试 集 。 将 
2014 年 7 月 -2014 年 12 月 的 数据 作为 训练 集 , 将 2015 
年 1 月 -2015 年 6 月 的 数据 作为 测试 集 。 

(2) 得 到 2014 年 12 月 某 时 间 点 ，advice-4 和 
advice-5 中 的 节点 数 分 别 为 G4 、G; 和 连 边 数 E，、E; 
两 个 板块 中 不 存在 的 连 边 数 分 别 为 (Gy xGs - E4) 、 
(G5 xG; -Es)。 

(3) 根据 相似 性 指标 计算 方法 , 遍历 所 有 节点 对 
«x,y », 计算 节点 对 的 相似 性 指标 分 数 score(x,y)， 
并 依据 指标 数值 大 小 排序 。 

(4) 虽然 企业 员工 相对 固定 , 但 是 偶 有 新 员工 加 
入， 导致 论坛 节点 数量 稍 有 增加 。 而 本 文 链 路 预测 分 
析 主 要 关注 “ 原 有 节点 ” 间 连 边 数量 的 增加 。 故 采用 文 
献 [24] 的 处 理 方 法 , 选取 2014 年 12 月 某 时 刻 之 前 的 连 
边 组 成 的 集合 为 Eome 。 实 际 新 产生 的 连 边 为 : 
Erme 门 (GxG) 。 则 新 增 连 边 的 数目 为 : 


Ens ^ 


o 


n= Boe 

(5) 选取 相似 性 指标 列表 里 面 的 前 n 对 节点 建立 
的 连 边 为 预测 出 的 连 边 , 设 此 预测 连 边 的 集合 为 
E 


pre ? 


(6) 用 各 种 方法 计算 相似 值 的 链 路 预测 正确 率 P: 


:MN\ Epre 


x100% (5) 


5.3” 链 路 预测 结果 分 析 


经 过 上 述 步 又 的 链 路 预测 , 得 到 预测 正确 率 结 采 
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众 效 应 "和 “ 阔 值 效应 "对 奥 情 传递 网 络 理论 解析 的 准 
确 性 。 


表 5 预测 正确 率 结果 比较 


指标 advice-4 advice-5 advice-4 advice-5 
如 表 5 所 示 。 “正确 率 (%) 正确 率 (%) ”预测 条 数 ”预测 条 数 
链 路 分 析 结 果 表 明 LP 算法 的 正确 率 最 高 ,LP 相 CN 20.10 15.61 32 22 
似 指标 计算 的 主要 思路 是 考虑 主要 邻居 及 次 级 邻居 的 Salton 8.21 9.27 4 2 
共同 影响 。 将 抓 取 到 的 所 有 BBS 在 线 数据 进行 可 视 化 Jaccard 10.35 11.60 3 3 
处 理 ， 如 图 5 所 示 。 Sorensen 10.35 11.60 3 3 
可 以 清晰 地 看 到 网 络 和 与 情 扩 散 呈 现 很 明显 的 分 层 HPI 7.62 6.01 1 1 
传递 态势 。 虽 然 链 路 预测 只 针对 此 与 情 传递 网 络 的 部 HDI 812 742 2 2 
分 数据 , 但 是 仍然 存在 相似 的 分 层 传播 现象 ,因此 , 结 LHN-I 1.09 1.11 0 0 
合 LP 相似 性 指标 的 层级 影响 思路 ,得 出 的 预测 结果 PA 18.39 14.03 25 18 
比较 准确 。 同 时 ,LP 指标 链 路 预测 结果 的 准确 性 , 也 Katz 19.07 13.21 31 20 
从 另 一 方面 肯定 了 仿真 模型 建立 的 基本 思路 一 一 “从 LP 26.72 18.39 40 24 
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图 5 互联 网 与 情 分 层 传 递 示意 图 


(X 核心 节点 E 


另外 ，CN 相似 性 指标 的 算法 准确 率 也 相对 较 
高 , CN 算法 的 主要 判断 标准 是 共同 邻居 的 数量 。 通 
过 规则 对 等 性 的 测算 , 对 CN 算法 的 计算 结果 进行 
验证 。 


一 级 节点 


E. 二 级 节点 “ 国 : 三 级 节点 ) 


在 advice-4 网 络 中 , 规则 对 等 性 测算 结果 如 图 6 
和 图 7 所 示 。 

(1) 5, 28, 18, 22, 25, 29 等 节点 在 100% 的 相 
似 水 平 上 具有 规则 对 等 性 ; 
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图 7 advice-4 规则 对 等 性 聚 类 树 图 9  advice-5 规则 对 等 性 聚 类 树 


Q) 节点 6 和 节点 26 间 在 99.991% 的 水 平 上 具备 。 (5, 9) 等 节点 对 间 的 相似 性 指标 值 较 高 的 结果 也 基本 
规则 对 等 性 。 这 与 CN 算法 计算 出 的 (5, 29)、(28, 18)、 ”吻合 。 
(5, 22). (6, 26) 等 节点 (只 列举 部 分 预测 连接 数据 ) 对 间 真实 网 络 的 实证 研究 结果 表明 ，, 与 情 传 播 节点 之 
的 相似 性 指标 值 最 高 的 结果 基本 相 吻 合 。 、 受 他 们 共同 邻居 的 影响 外。 同样 , 在 网 

在 advice-5 网 络 中 , 规则 对 等 性 测算 结果 如 图 8 盟 情 传递 过 程 中 , 不 相干 的 自 情 信息 传递 个 体 间 能 
和 图 9 所 示 。 d 很 大 程度 上 取决 于 他 们 是 否 具有 共 

(1) 2、12、6、7 等 节点 在 100% 的 相似 水 平 上 具 WAE, 具有 共同 邻居 的 数量 越 大 ,建立 直接 联系 的 
有 规则 对 等 性 ; 概率 就 越 高 。 

(2) 节点 5 在 86% 的 相似 水 平 上 与 节点 10 具有 因此 可 以 得 出 结论 : 针对 此 舆情 传递 BBS 网 络 ， 
规则 对 等 性 , 在 95% 的 相似 水 平 上 与 节点 10 具 有 规 。 CN 算法 的 预测 结果 最 精确 , 可 以 使 用 CN 算法 对 此 由 
则 相似 性 ,这 一 结果 与 CN 算法 得 到 的 (12, 7)、(6, 2)、 ” 情 传递 网 络 做 链 路 预测 分 析 。 
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通过 理论 分 析 发 现 , 网 络 与 情 传递 个 体 间 的 “从 
众 效应 "和 “ 浆 值 效应 ”是 舆情 得 以 传递 的 重要 驱动 力 。 
以 其 为 理论 基础 ， 对 与 情 传递 BA 模拟 网 络 数据 和 真 
实 僵 情 传 递 网 络 的 BBS 在 线 数据 进行 链 路 预测 分 析 。 
在 对 众多 的 相似 性 指标 计算 结果 比较 以 后 发 现 , LP 算 
法 的 计算 结果 准确 率 最 高 , CN 算法 的 准确 率 其 次 。 并 
且 使 用 可 视 化 及 对 等 性 分 析 等 手段 ， 对 链 路 预测 的 计 


算 结果 进行 了 相关 验证 。 

本 研究 也 存在 一 些 不 足 , 在 对 仿真 数据 和 真实 数 
据 进行 链 路 预测 时 , 选取 的 目 ub 领域 经 常 采用 的 
一 些 相似 性 计算 指标 ， 而 没有 对 其 进行 相应 的 改进 ， 
使 指标 更 能 贴 合 与 ， "ud. 这 也 是 后 续 研 
究 的 方向 所 在 。 
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Link Prediction Analysis of Internet Public Opinion Transfer from the 
Individual Perspective 


Wei Jing! ZhuHengmin' Song Ruixiao” Jiang Shibing’ 
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2(College of Economic and Management, Nanjing University of Aeronautics and Astronautics, 
Nanjing 210016, China) 

(Department of Management, Brock University, St. Catharines L2S 3A1, Canada) 


Abstract: [Objective] This paper establishes the BA network model of public opinion transfer process, regarding 
“Bandwagon Effect" and “Threshold Effect" as a starting point and according to the special inspection of public opinion. 
[Methods] At the same time, collect the real online data of public opinion transfer network. This paper uses the link 
prediction method to predict the unknown links of public opinion nodes which will appear in the forthcoming transfer 
process of both simulation BA network data and real public opinion data. [Resualts] The analysis results show that 
among many similarity indices algorithms LP link prediction algorithm can get the best prediction. It means that LP link 
prediction algorithm 1s suitable for the link prediction in such public opinion delivery network. [Limitations] There is 
no improvement of link predict similarity index. [Conclutions] From the point of data view, this paper proposes an 
effective prediction method of public opinion trends analysis to provide the theoretical support for the network of public 
opinion control. 


Keywords: Link prediction Individual of public opinion transfer BA network BBS network 
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